智能论文笔记

Composition based oxidation state prediction of materials using deep learning

Nihang Fu , Jeffrey Hu , Ying Feng , Gregory Morrison , Hans-Conrad zur Loye , Jianjun Hu

分类：机器学习

2022-11-29

Oxidation states are the charges of atoms after their ionic approximation of their bonds, which have been widely used in charge-neutrality verification, crystal structure determination, and reaction estimation. Currently only heuristic rules exist for guessing the oxidation states of a given compound with many exceptions. Recent work has developed machine learning models based on heuristic structural features for predicting the oxidation states of metal ions. However, composition based oxidation state prediction still remains elusive so far, which is more important in new material discovery for which the structures are not even available. This work proposes a novel deep learning based BERT transformer language model BERTOS for predicting the oxidation states of all elements of inorganic compounds given only their chemical composition. Our model achieves 96.82\% accuracy for all-element oxidation states prediction benchmarked on the cleaned ICSD dataset and achieves 97.61\% accuracy for oxide materials. We also demonstrate how it can be used to conduct large-scale screening of hypothetical material compositions for materials discovery.

translated by 谷歌翻译

Deep Hypergraph Structure Learning

Zizhao Zhang , Yifan Feng , Shihui Ying , Yue Gao

分类：机器学习 | 人工智能

2022-08-26

高阶相关性学习在数据表示学习中表现出了优越性，在近几十年来，超图已被广泛使用。基于超图的表示方法（例如HyperGraph神经网络）的性能很大程度上取决于HyperGraph结构的质量。如何在数据之间生成超图结构仍然是一项具有挑战性的任务。缺失和嘈杂的数据可能会导致超图结构中的“不良连接”，并破坏基于超图的表示过程。因此，揭示高阶结构，即观察到的数据背后的超图成为一项紧迫但重要的任务。为了解决这个问题，我们设计了深度图结构学习的一般范式，即DeepHGSL，以优化基于超图表的表示超图结构。具体地，受鲁棒性问题的信息瓶颈原则的启发，我们首先将其扩展到HyperGraph Case，该案例由HyperGraph Information Bottleneck（HIB）原理命名。然后，我们应用此原理来指导超图结构学习，其中引入HIB以构建损耗函数以最大程度地减少超图结构中的嘈杂信息。可以优化超图结构，并且可以认为该过程可以增强正确的连接并削弱训练阶段的错误连接。因此，所提出的方法即使在严重的嘈杂结构上提取更健壮的表示也有益。最后，我们在四个基准数据集上评估该模型以进行表示。与其他最新方法相比，对图形和超图结构数据的实验结果证明了我们方法的有效性和鲁棒性。

translated by 谷歌翻译

HTML版本

Shuffle Instances-based Vision Transformer for Pancreatic Cancer ROSE Image Classification

Tianyi Zhang , Youdan Feng , Yunlu Feng , Yu Zhao , Yanli Lei , Nan Ying , Zhiling Yan , Yufang He , Guanglei Zhang

分类：计算机视觉

2022-08-14

快速的现场评估（ROSE）技术可以通过适当地分析快速染色的细胞病理学图像来显着加速胰腺癌的诊断。计算机辅助诊断（CAD）可以潜在地解决玫瑰病中病理学家的短缺。但是，不同样品之间的癌性模式差异很大，这使CAD任务极具挑战性。此外，由于不同的染色质量和各种采集装置类型，玫瑰图像在颜色分布，亮度和对比度方面具有复杂的扰动。为了应对这些挑战，我们提出了一种基于随机实例的视觉变压器（SI-VIT）方法，该方法可以减少扰动并增强实例之间的建模。借助重新组装的洗牌实例及其行李级软标签，该方法利用回归头将模型集中在细胞上，而不是各种扰动。同时，该模型与分类头结合在一起，可以有效地识别不同实例之间的一般分布模式。结果表明，分类准确性有了更准确的注意区域的显着提高，表明玫瑰图像的多种模式有效地提取了，并且复杂的扰动大大降低。这也表明SI-VIT在分析细胞病理学图像方面具有巨大的潜力。代码和实验结果可在https://github.com/sagizty/mil-si上获得。

translated by 谷歌翻译

Modality-Aware Contrastive Instance Learning with Self-Distillation for Weakly-Supervised Audio-Visual Violence Detection

Jiashuo Yu , Jinyu Liu , Ying Cheng , Rui Feng , Yuejie Zhang

分类：计算机视觉

2022-07-12

弱监督的视听暴力检测旨在区分包含带有视频级标签的多模式暴力事件的片段。许多先前的作品以早期或中间的方式执行视听整合和互动，但在弱监督的设置上忽略了模态异质性。在本文中，我们分析了多种实例学习（MIL）程序的模式异步和未分化的实例现象，并进一步研究了其对弱监督视听学习的负面影响。为了解决这些问题，我们提出了一种以自我验证（MACIL-SD）策略学习的方式感知的对比实例。具体而言，我们利用轻量级的两流网络来生成音频和视觉袋，其中单峰背景，暴力和普通实例以一种无监督的方式聚集到半袋中。然后，将音频和视觉剧烈的半袋表示作为正对组装，将暴力半袋与背景和正常实例相结合，以对比性负对。此外，将自我验证模块应用于将单峰视觉知识传输到视听模型，该模型减轻了噪音并缩小单峰和多模式特征之间的语义差距。实验表明，我们的框架在大规模XD-Violence数据集上的复杂性较低的方法优于先前的方法。结果还表明，我们提出的方法可以用作增强其他网络的插件模块。代码可在https://github.com/justinyuu/macil_sd上找到。

translated by 谷歌翻译

IDEA: Increasing Text Diversity via Online Multi-Label Recognition for Vision-Language Pre-training

Xinyu Huang , Youcai Zhang , Ying Cheng , Weiwei Tian , Ruiwei Zhao , Rui Feng , Yuejie Zhang , Yaqian Li , Yandong Guo , Xiaobo Zhang

分类：计算机视觉 | 机器学习

2022-07-12

具有大尺度图像文本对的视觉预训练（VLP）在各个领域都表现出卓越的性能。但是，Internet上的图像文本对共存通常缺乏明确的对齐信息，这对于VLP来说是次优的。建议采用现成的对象检测器来利用其他图像标签信息。但是，对象检测器是耗时的，只能识别预定义的对象类别，从而限制了模型容量。受到观察的启发，即文本包含不完整的细粒图像信息，我们介绍了Ideas，该想法代表通过在线多标签识别VLP来增加文本多样性。想法表明，可以在VLP期间共同优化从文本中提取的图像标签的多标签学习。此外，想法可以在线识别有价值的图像标签，以提供更明确的文本监督。全面的实验表明，想法可以显着提高多个下游数据集上的性能，并具有较小的额外计算成本。

translated by 谷歌翻译

SHREC'22 Track: Sketch-Based 3D Shape Retrieval in the Wild

Jie Qin , Shuaihang Yuan , Jiaxin Chen , Boulbaba Ben Amor , Yi Fang , Nhat Hoang-Xuan , Chi-Bien Chu , Khoi-Nguyen Nguyen-Ngoc , Thien-Tri Cao , Nhat-Khang Ngo

分类：计算机视觉

2022-07-11

基于草图的3D形状检索（SBSR）是一项重要但艰巨的任务，近年来引起了越来越多的关注。现有方法在限制设置中解决了该问题，而无需适当模拟真实的应用程序方案。为了模仿现实的设置，在此曲目中，我们采用了不同级别的绘图技能的业余爱好者以及各种3D形状的大规模草图，不仅包括CAD型号，而且还可以从真实对象扫描的模型。我们定义了两个SBSR任务，并构建了两个基准，包括46,000多个CAD型号，1,700个现实型号和145,000个草图。四个团队参加了这一轨道，并为这两个任务提交了15次跑步，由7个常用指标评估。我们希望，基准，比较结果和开源评估法会在3D对象检索社区中促进未来的研究。

translated by 谷歌翻译

Self-Supervised Learning of Music-Dance Representation through Explicit-Implicit Rhythm Synchronization

Jiashuo Yu , Junfu Pu , Ying Cheng , Rui Feng , Ying Shan

分类：计算机视觉

2022-07-07

尽管事实证明，视听表征适用于许多下游任务，但舞蹈视频的表示，这是更具体的，并且总是伴随着具有复杂听觉内容的音乐，但仍然具有挑战性且没有评估。考虑到舞者和音乐节奏的节奏运动之间的内在结合，我们介绍了Mudar，这是一个新颖的音乐舞蹈表示学习框架，以明确和隐性的方式执行音乐和舞蹈节奏的同步。具体而言，我们根据音乐节奏分析启发的视觉外观和运动提示得出舞蹈节奏。然后，视觉节奏在时间上与音乐对应物对齐，这些音乐由声音强度的幅度提取。同时，我们利用对比度学习在音频和视觉流中隐含的节奏的隐式连贯性。该模型通过预测视听对之间的时间一致性来学习关节嵌入。音乐舞蹈表示以及检测音频和视觉节奏的能力，可以进一步应用于三个下游任务：（a）舞蹈分类，（b）音乐舞蹈检索，以及（c）音乐舞蹈重新定位。广泛的实验表明，我们提出的框架以大幅度优于其他自我监督方法。

translated by 谷歌翻译

Weakly-supervised Action Localization via Hierarchical Mining

Jia-Chang Feng , Fa-Ting Hong , Jia-Run Du , Zhongang Qi , Ying Shan , Xiaohu Qie , Wei-Shi Zheng , Jianping Wu

分类：计算机视觉

2022-06-22

弱监督的动作本地化旨在仅使用视频级别的分类标签在给定的视频中进行本地化和分类。因此，现有的弱监督行动定位方法的关键问题是从弱注释中对精确预测的有限监督。在这项工作中，我们提出了视频级别和摘要级别的举止，即等级的层次策略，即等级监督和等级一致性挖掘，以最大程度地利用给定的注释和预测一致性。为此，提出了一个分层采矿网络（HIM-NET）。具体而言，它在两种谷物中挖掘了分类的层次监督：一个是通过多个实例学习捕获的地面真理类别的视频级别存在；另一个是从互补标签的角度来看，每个负标签类别的摘要级别不存在，这是通过我们提出的互补标签学习优化的。至于层次结构的一致性，HIM-NET探讨了视频级别的共同作用具有相似性和摘要级别的前景背景对立，以进行判别表示学习和一致的前景背景分离。具体而言，预测差异被视为不确定性，可以选择对拟议的前后背景协作学习的高共识。全面的实验结果表明，HIM-NET优于Thumos14和ActivityNet1.3数据集的现有方法，该数据集具有较大的利润率，通过层次挖掘监督和一致性。代码将在GitHub上提供。

translated by 谷歌翻译

SpA-Former: Transformer image shadow detection and removal via spatial attention

Xiao Feng Zhang , Chao Chen Gu , Shan Ying Zhu

分类：计算机视觉 | 机器学习

2022-06-22

在本文中，我们提出了端到端的水疗形式，以从单个阴影图像中恢复无阴影的图像。与需要两个步骤进行阴影检测然后再删除阴影的传统方法不同，Spa-Former将这些步骤统一为一个，这是一个单阶段网络，能够直接学习阴影和无阴影之间的映射功能，不需要一个单独的阴影检测。因此，SPA形式适应于实际图像去阴影，以适应投影在不同语义区域上的阴影。SPA形式由变压器层和一系列关节傅立叶变压残留块和两轮关节空间注意力组成。本文中的网络能够在达到非常快速的处理效率的同时处理任务。我们的代码在https://github.com/ zhangbaijin/spatial-transformer-shadow-removal上重新发布

translated by 谷歌翻译

SsciBERT: A Pre-trained Language Model for Social Science Texts

Si Shen , Jiangfeng Liu , Litao Lin , Ying Huang , Lin Zhang , Chang Liu , Yutong Feng , Dongbo Wang

分类：自然语言处理

2022-06-09

社会科学的学术文献是记录人类文明并研究人类社会问题的文献。随着这种文献的大规模增长，快速找到有关相关问题的现有研究的方法已成为对研究人员的紧迫需求。先前的研究，例如SCIBERT，已经表明，使用特定领域的文本进行预训练可以改善这些领域中自然语言处理任务的性能。但是，没有针对社会科学的预训练的语言模型，因此本文提出了关于社会科学引文指数（SSCI）期刊上许多摘要的预培训模型。这些模型可在GitHub（https://github.com/s-t-full-text-knowledge-mining/ssci-bert）上获得，在学科分类和带有社会科学文学的抽象结构 - 功能识别任务方面表现出色。

translated by 谷歌翻译